01/10/2021

Le séquencage à haut débit et ses applications en oncologie

Applications principales

  • Recherche: Analyse de panels larges ou d’exomes (complet) à visée de découverte.
  • Clinique: analyse de panels restreints à visée diagnostique.

Interêt du NGS en Oncologie

  • Permet l’étude de mutations constitutionnelles et somatiques à faible pourcentages.

  • Possibilité de traiter des projets ciblés ou des panels plus larges, voire exome complet.

  • Un grand nombre de patients peuvent être analysés simultanément et rapidement.

  • L’analyse bioinformatique devient partie intégrante du processus de traitement.

vers une industrialisation du séquençage

Principe général du NGS

Echelles en fonction de l’application

Principe du séquencage Shotgun

Détection de variants structuraux par NGS

But: recherche de mutations dans des gènes d’interêt pour poser un diagnostique sur un patient.

Etapes de l’analyse bioinformatique:

  • Contrôle Qualité sur les données brutes (Obligatoire!)
  • Alignement des reads sur le génome de référence
    • Alignement principal.
    • Ré-alignement local pour la recherche d’Indels.
  • Appel de variants
  • Annotation et production d’un fichier VCF et d’un compte-rendu

Départ: les fichiers issus du séquenceur (Fichiers FASTQ)

Ils contiennent les reads: petite séquence d’un fragment d’ADN de longueurs plus ou mons fixe.

  • Single-end
    • Chaque read est indépendant
  • Paired-end
    • Le séquencage est fait par chaque extrémité de chaque brin. Dans ce cas, les reads sont organisés par paires
@HWI-ST865:166:D0C4KACXX:2:1101:1042:1954 1:Y:0:
CNANAAATNAANNNNGNNNNNNNNNANNNNNAAANNNTNNNNNNNNNTNNTGNNNNTTGTTTNNTTGTGGGTTTCTCTGTCCCCN
+
#####################################################################################
@HWI-ST865:166:D0C4KACXX:2:1101:1241:1970 1:N:0:
CCAGCGACACTTGCAGCTTAGGGGCAAGAGGCTCCCACAACACCCTGTGCGATCGGAAGAGCGGTTCAGCAGGGATGCCGCGGCC
+
GFFIGIIIFGEHHIJJJIIGGGHIIBD=BFG?EDECC@FGCHC?BCCBB)53(;;B;?8299?######################

Mesure et encodage qualité: le Phred

Quelques définitions:

  • Valeur de qualité exprimée en \(QPhred\)
  • \(QPhred\) = probabilité \(p\) d’erreur de mauvaise identification de la base
  • \(QPhred = -10.log_{10}(p)\)

Exemple:

  • Q20 correspond à une probabilité d’erreur de 1%
  • Q30 correspond à une probabilité d’erreur de 0,1%

Contrôle Qualité par FastQC

Alignement sur le génome de référence (BWA)

Détection des variants

Production des VCF (Variant Calling Files)

Visualisation sous IGV

Quelques définitions: les Reads

Quelques définitions: Couverture et profondeur

Analyse de panels: Exemple du panel INCa

Du prélèvement au compte-rendu scientifique

Alignement par BWA

Référence: Li et al: Fast and accurate short read alignment with Burrows–Wheeler transform. Bioinformatics. 2009 Jul 15; 25(14): 1754–1760.

BWA (Burrows-Wheeler Alignment tool)a été spécialement conçu pour l’alignement de millions de séquences peu divergentes d’un génome de référence.

Il est basé sur la Transformée Burrows-Wheeler associé à un algorithme de tri par arbre. Il permet l’alignement de reads relativement longs pour lequels il existe des seuils (gap) en cas de présence d’INDELS.

Il utilise une quantité relativement faible de mémoire et est parallélisable, pour explooiter les architectures multi-coeurs des calculateurs tels que celui de l’IFB.

Détection de variants structuraux par VarScan

Koboldt DC et al: Using VarScan 2 for Germline Variant Calling and Somatic Mutation Detection. Curr Protoc Bioinformatics. 2013 Dec;44:15.4.1-17

Varscan2 est un programme d’appel de variants applicable aussi bien pour des analyse constitutionelles (germline) que tumorales (somatic). Il est aussi possible de faire des analyse des réarrangements de grande taille (CNA).

En tumoral, il peut détecter les variations constitutionnelles, tumorales ou la perte d’hétérozygotie.

Il est capable de travailler aussi bien à de grande qu’à de faibles profondeurs, ainsi que de géré des régions avec de fortes différences de profondeurs dans les échantillons tumoraux et normaux.

De plus, il peut fonctionner aussi bien en séquençage complet (Whole Genome) qu’en séquençage exomique ou séquençage ciblé.

Détection de variants structuraux par VarScan

VarScan fonctionne en calculant un test de Fisher sur le nombre de reads portant la mutation en tenant compte de l’erreur de séquençage.

Pour les applications en oncologie, il permet la comparaison des échantillons normaux et tumoraux par un test de Fisher.

Par défaut, VarScan demande une valeur de qualité de séquençage (Phred) minimale de 20, une fréquence allélique minimale de 8%. Une fréquence allélique de 75% qualifie le variant d’homozygote. La p-valeur doit être <0.05..

VarScan traite les réarrangements de grande taille (RGT) par l’algorithme CBS (Circular Binary Segmentation) suivi d’une procédure de fusion des segments. Les segments obtenus sont ensuite classés comme large (>25% de la taille du chromosome) ou focalisés.

Annovar

Annovar est un utilitaire d’annotations de variants. Il fonctionne à partir de génomes divers (hg38, hg19, souris, drosophille, levure, etc…)

Il permet de faire des annotations au niveau des gènes et donc de retrouver les gènes à partir des bases de données RefSeq, Ensembl, etc…

Il permet aussi d’annoter des Régions ainsi que de construire des filtres basés sur le contenu des bases de données.

Les principales bases de données qu’il permet d’utiliser pour l’annotation sont:

(voir https://annovar.openbioinformatics.org/en/latest/user-guide/filter/#summary-of-databases)

  • 1000 genomes
  • GnomAD
  • RefSeq…

Rappel des étapes bioinformatiques

  • Contrôle Qualité (FASTQC)
  • Alignement sur le génome de référence (BWA)
  • Trimming des séquences adptatrices (Triommomatic)
  • Détection des mutations (VarScan)
  • Annotation des variants (Annovar)
  • Visualisation des données (Read, SNPs) (IGV - Integrative Genomics Viewer)

Rappels sur les extensions de fichiers

  • Fichiers de séquences brutes: .fastq (Compressé: .fastq.gz)
  • Fichiers de séquences alignées .BAM
  • Index de fichiers de séquences alignées .BAI
  • Génome complet au format FASTA: .fa
  • Fichiers listant les mutations/Indels: .VCF ou .txt

Conclusion

  • L’utilisation du NGS en oncologie permet d’augmenter le débit d’analyse.

  • L’analyse bioinformatique fait partie intégrante du processus global de détection des variants.

  • A terme: disparition du séquencage ciblé type Sanger. Celui-ci est actuellement encore utilisé pour la confirmation des résultats.

  • Perspectives: vers la plateforme France Médecine Génomique 2025.

  • Voir le projet des 100,000 génomes du NHS.

Petit Quizz

  • En analyse NGS, la bioinformatique et l’infrastructure bioinformatique ne sont que peu ou pas importantes face au séquençage lui-même: (Vrai/Faux)

  • Remettre dans l’ordre les phases d’analyses NGS suivantes:

    • Alignement
    • Détection des mutations et Production des VCFs
    • Visualisation des BAM
    • Annotation des variants
    • Contrôle Qualité
  • Faire correspondre les logiciels suivants à ces différentes étapes:

    • BWA
    • IGV
    • Varscan
    • Annovar
    • FastQC

Licence